在接觸使用 ChatGPT 這種 AI 工具前也要先認識他們所使用的 AI 模型「LLM」是什麼啦,先看看維基百科的定義:
大型語言模型(Large Language Model, LLM)是一種能夠執行語言生成或其他自然語言處理任務的計算模型。這些模型透過學習大量文本中的統計關係來獲得能力,通常是透過自我監督或半監督的訓練過程完成的。
大型語言模型的重要性在於它們能夠理解和生成自然語言,並且可以被用來解決許多與語言相關的問題,比如自動化翻譯、文本生成、問答系統等等。這些模型已經在多個領域內取得了顯著的成果,例如 OpenAI 的 GPT 系列、Google 的 Gemini 系列,以及 Meta 的 LLaMA 系列等,這些都展示了 LLMs 在處理和生成大規模文本數據方面的強大能力。
我想這樣就可以知道 LLM 主要適用於「處理語言相關的機器學習模型」,也因此 LLM 他是很仰賴「訓練資料集」的一種模型,合理你吐什麼資料給他,他就生成什麼給你,所以適合應用的場景就會是跟「語言相關」的為主,像是:
LLM 之所以能夠生成程式碼或是繪圖,是因為它們背後的工作原理是基於統計和模式識別,而這些原理並不限於語言本身
LLM 在訓練過程中學習了大量文本數據,包括程式碼、數學表達式、圖形描述等。這使得模型能夠識別這些數據中的模式並應用在不同的上下文中。例如:程式碼和語言都遵循某種結構和語法規則,LLM 能夠學習這些規則並應用於生成新程式碼。
在訓練大型語言模型時,通常會用到多樣化的數據集,這些數據集可能包含了書籍、網站文章、對話記錄,甚至還包括了程式碼片段和圖像生成描述。這讓模型具備了跨領域應用的能力。
無論是語言生成、程式碼生成還是圖像生成,這些任務的本質都是在給定輸入的基礎上生成合乎邏輯的輸出。模型在語言生成任務中的能力可以擴展到其他類似的生成任務中。例如,當模型學習到如何生成自然語言時,它也能學會如何按照相似的方式生成程式碼或圖像的描述,進而通過接口(如 API)來創建實際的圖像。
LLM 在生成程式碼或圖像時,有時會結合外部的工具或特定的模型。例如,當你要求模型「畫一隻貓」時,LLM 可能會生成一段描述或代碼,這段描述或代碼再由專門的圖像生成模型(如DALL-E)來轉化為具體的圖像。因此,LLM 的能力實際上是在調用和協同使用不同領域的技術和工具。
因此這樣也幫助我們認識到他背後的運行原理了,下次朋友跟你說 AI 可以幫他做什麼時,不仿也可以想像「這個過程是否是可以符合邏輯或是透過描述來達到的」,如果可以那就是很適合透過 AI 來協助,但如果不行「ex: 在沒有訓練資料集的情況下創造全新的東西」,那或許還是需要透過我們人類來解決了。